Связанные понятия
Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Теза́урус (от греч. θησαυρός «сокровище»), в общем смысле — специальная терминология, более строго и предметно — словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины специальной области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации (пониманию в общении и взаимодействии лиц, связанных одной дисциплиной или профессией); в современной лингвистике — особая разновидность словарей, в которых указаны...
Маши́нный перево́д — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем.
Слова́рь — это книга или любой другой источник, информация в котором упорядочена c помощью разбивки на небольшие статьи, отсортированные по названию или тематике. Различают энциклопедические и лингвистические словари.
Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста.
Упоминания в литературе
Получается, что при таком подходе категории всякий раз должны выделяться заново, а использование категорий, выделенных ранее в других исследованиях, весьма проблематично. Действительно, откуда мы знаем, что речевая активность каких-либо двух групп измеряется именно по тем же самым параметрам, что и речевая активность каких-то других групп? В начале исследования следует взять относительно небольшую, но все же репрезентативную выборку порядка 40–50 текстов и попытаться выделить основные темы в виде контент-категорий и кодировочных инструкций. Затем на их основе разметить базовый
корпус текстов экспериментальной и контрольной групп и тем или иным способом осуществить проверку статистической гипотезы в отношении каждой из категорий.
Связанные понятия (продолжение)
Корефере́нтность или референциональное тождество — отношение между именами — компонентами высказывания, в котором имена ссылаются на один и тот же объект (ситуацию) внеязыковой действительности (референт).
Сло́вник — перечень слов, расположенных в алфавитном или систематизированном порядке, составляемый в процессе работы над словарём или энциклопедией. При подготовке словника энциклопедии он представляет собой оглавление издания, отражающее его структуру и профиль. При составлении словника производится отбор терминов и устанавливается соотношение объёмов разделов и отдельных статей, выделяется цикл статей, разрабатывается система ссылок. С работой над словником тесно связано планирование помещения...
Автоматизи́рованный перево́д (АП, англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.
Глосса́рий (лат. glossarium «собрание глосс») — словарь узкоспециализированных терминов в какой-либо отрасли знаний с толкованием, иногда переводом на другой язык, комментариями и примерами. Собрание глосс (иноязычных или непонятных слов в тексте книги с толкованием) и собственно глоссарии стали предшественниками словаря.
Грамма́тика (от греч. γράμμα — «запись»), как описание языка — это научное произведение, описывающее грамматический строй языка. Представляет собой плод работы учёных, занимающихся грамматикой как наукой.
Абза́ц (нем. Absatz «раздел, часть текста») — отрезок письменной речи, состоящий из одного или нескольких предложений.
Нау́чный стиль — функциональный стиль речи литературного языка, которому присущ ряд особенностей: предварительное обдумывание высказывания, монологический характер, строгий отбор языковых средств, тяготение к нормированной речи.
Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям.
В информатике
лексический анализ («токенизация», от англ. tokenizing) — процесс аналитического разбора входной последовательности символов на распознанные группы — лексемы, с целью получения на выходе идентифицированных последовательностей, называемых «токенами» (подобно группировке букв в словах). В простых случаях понятия «лексема» и «токен» идентичны, но более сложные токенизаторы дополнительно классифицируют лексемы по различным типам («идентификатор, оператор», «часть речи» и т. п.). Лексический...
Машинный перевод на основе примеров (англ. Example-based machine translation, EBMT) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. По сути, это перевод по аналогии, который может рассматриваться как применение метода рассуждений на основе прецедентов к машинному обучению.
Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics) — научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.
Есте́ственный язы́к — в лингвистике и философии языка язык, используемый для общения людей (в отличие от формальных языков и других типов знаковых систем, также называемых языками в семиотике) и не созданный целенаправленно (в отличие от искусственных языков).
Ана́фора (от греч. ἀναφέρειν — относить назад, возводить к чему-либо, возвращать) — лингвистическое явление, зависимость интерпретации некоторого выражения от другого выражения, обычно ранее встречавшегося в тексте. Это определяющее выражение называется антецедент (если оно появляется до анафорического выражения) или постцедент (если появляется после).
Грамматика составляющих (метод составляющих; англ. constituency grammar, phrase structure grammar) основана на постулате, согласно которому всякая сложная грамматическая единица складывается из двух более простых и не пересекающихся единиц, называемых её непосредственными составляющими (англ. immediate constituent).
Кавы́чки — парный знак препинания, который употребляется для выделения прямой речи, цитат, отсылок, названий предприятий, литературных произведений, газет, журналов, а также отдельных слов, если они включаются в текст не в своём обычном значении, используются в ироническом смысле, предлагаются впервые или, наоборот, как устаревшие и тому подобное.
Стандартный английский язык (англ. Standard English, в кругах лингвистов часто используется аббревиатура SE) — понятие, которое относится к любой форме английского языка, включающей в себя грамматику, лексику и правописание, принятой в качестве национальной нормы в англоязычных странах. Поскольку, в отличие от абсолютного большинства наиболее распространённых языков мира, у английского языка нет никакого официального регулятора, точное определение «стандартного английского языка» невозможно дать...
Амперса́нд (иногда — амперсе́нд; англ. ampersand) — знак &. Он является логограммой, заменяющей союз «и», и возник как лигатура букв et (с лат. — «и»).
Алгоритм Леска — классический алгоритм разрешения лексической многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.
Просо́дия (др.-греч. προσῳδία «ударение»), также просо́дика — учение об ударении (в первую очередь музыкальном), занимающееся слогами с точки зрения их ударности и протяженности. Возникла в античной грамматике. В настоящее время понятие просодии неоднозначно и рассматривается в разных научных дисциплинах.
Пла́новый язы́к — международный искусственный социализованный язык, то есть язык, созданный для международного общения и применяемый на практике.
Пунктуа́ция (ср.-век. лат. punctuatio, от лат. punctum — точка) — система знаков препинания в письменности какого-либо языка, сами правила их постановки в письменной речи, а также раздел грамматики, изучающий эти правила.
Сте́мминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
Разрешение лексической многозначности (word sense disambiguation, WSD) — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентность текста, при анализе умозаключений...
Формальная грамматика или просто грамматика в теории формальных языков — способ описания формального языка, то есть выделения некоторого подмножества из множества всех слов некоторого конечного алфавита. Различают порождающие и распознающие (или аналитические) грамматики — первые задают правила, с помощью которых можно построить любое слово языка, а вторые позволяют по данному слову определить, входит ли оно в язык или нет.
Панграмма (c греч. «все буквы») или разнобуквица — короткий текст, использующий все или почти все буквы алфавита, по возможности не повторяя их.
Метаязы́к — язык, предназначенный для описания другого языка, называемого объектным языком.
Представление знаний — вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в исследованиях искусственного интеллекта.
Расширенная форма Бэкуса — Наура (расширенная Бэкус — Наурова форма (РБНФ)) (англ. Extended Backus–Naur Form (EBNF)) — формальная система определения синтаксиса, в которой одни синтаксические категории последовательно определяются через другие. Используется для описания контекстно-свободных формальных грамматик. Предложена Никлаусом Виртом. Является расширенной переработкой форм Бэкуса — Наура, отличается от БНФ более «ёмкими» конструкциями, позволяющими при той же выразительной способности упростить...
Сочета́емость — свойство языковых единиц сочетаться в речи при образовании единиц более высокого уровня, отражающее синтагматические отношения между ними. Сочетаемость является одним из фундаментальных свойств единиц языка.
Терминоло́гия — совокупность терминов, используемых в определённой области знания.
Вока́була (от лат. vocabulum «слово, имя, название») — отдельно взятое слово для заучивания наизусть при первоначальном обучении языкам; в заголовке словарной статьи — основное определяющее слово или словосочетание, выделенное полужирным шрифтом с указанием ударения; предмет изучения в лексикологии и лексикографии.
Зна́ки препина́ния — элементы письменности, выполняющие вспомогательные функции разделения (выделения) смысловых отрезков текста, предложений, словосочетаний, слов, частей слова, указания на грамматические и логические отношения между словами, указания на коммуникативный тип предложения, его эмоциональную окраску, законченность, а также некоторые иные функции.
Ифку́иль (ифк. Iţkuîl), также Ыфкуил или Илакш — искусственный язык философского направления. Обладает крайней сложностью грамматики и огромным набором фонем, что делает язык весьма трудным для изучения.
Прагматика (от др.-греч. πράγμα, родительный падеж πράγματος — «дело, действие») — термин языкознания, обозначающий...
О термине из программирования см. Зарезервированное слово.Ключевое слово — слово в тексте, способное в совокупности с другими ключевыми словами дать высокоуровневое описание содержания текстового документа, позволяющее выявить его тематику. В вебе используется главным образом для поиска.
Подробнее: Ключевое слово
Форма Бэкуса — Наура (сокр. БНФ, Бэкуса — Наура форма) — формальная система описания синтаксиса, в которой одни синтаксические категории последовательно определяются через другие категории. БНФ используется для описания контекстно-свободных формальных грамматик. Существует расширенная форма Бэкуса — Наура, отличающаяся лишь более ёмкими конструкциями.
Порожда́ющая грамма́тика (генеративная грамматика, англ. generative grammar) — формализм генеративной лингвистики, связанный с изучением синтаксиса. В рамках подхода порождающей грамматики формулируется система правил, при помощи которых можно определить, какая комбинация слов оформляет грамматически правильное предложение. Термин введён в научный оборот в работах Ноама Хомского в конце 1950-х годов (в ранних версиях теории Хомского использовался термин трансформационная грамматика, англ. transformational...
Усвое́ние языка ́ — процесс обучения человека языку, исследуемый лингвистами. Обычно фраза обозначает усвоение родного языка ребёнком, в противовес термину усвоение второго языка, под которым понимается процесс приобретения навыков общения на новом иностранном языке, независимо от числа ранее выученных.
Текст (от лат. textus — ткань; сплетение, сочетание) — зафиксированная на каком-либо материальном носителе человеческая мысль; в общем плане связная и полная последовательность символов.
Универсальная грамматика — термин, которым в ряде лингвистических теорий обозначается предполагаемый набор правил или принципов, присущих каждому человеческому языку. Подобные правила не определяют язык полностью: они допускают значительную вариантность, но ограничивают её некоторыми конечными рамками. В современной когнитивной науке универсальная грамматика понимается как встроенное на генетическом уровне знание о языке.
Семанти́ческая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа...
Фонети́ческое письмо ́ — вид письма, в котором графический знак (графема) привязан к определённому звучанию.